跨学科评估

首页

跨学科评估

列表

默认

浏览次数

发布日期

SuperGPQA

SuperGPQA是由字节跳动豆包团队与M-A-P联合开发的知识推理基准测试集，覆盖285个研究生级学科，包含26529道题目。其核心功能是评估大语言模型的泛化能力和真实推理水平，42.33%的题目涉及数学计算或形式推理。该测试集采用专家与大语言模型协同构建的方式，确保题目质量，并涵盖STEM与非STEM领域，填补了长尾学科评估的空白。适用于模型性能评估、优化指导及跨学科研究等多种应用场景。

AI项目与工具 2025年06月12日 11 点赞 0 评论 789 浏览

跨学科评估 首页 跨学科评估

列表 默认 浏览次数 发布日期

SuperGPQA

跨学科评估

首页

跨学科评估

列表

默认

浏览次数

发布日期